আমার আগের পোস্টে আমি পান্ডাসের বেসিক পরিচিতি এবং এর একমাত্রিক ডাটা স্ট্রাকচার সিরিজ নিয়ে কথা বলেছি। এখন আমি মাত্রা বাড়িয়ে দিব ও আমাদের এখনকার টপিক হবে ডাটাফ্রেম।

ডাটাফ্রেম হল পান্ডাসের দ্বিমাত্রিক ডাটা স্ট্রাকচার। রো ও কলাম দুই বরাবর আপনি ইনডেক্স করতে পারবেন আর সর্টিং, সারচিং, গ্রুপিং ইত্যাদি করা যাবে। প্লটিং তো আছেই। বলতে পারেন, পাইথনের ভিতর এক্সেল টাইপ কাজ করতে পারবেন, প্রোগ্রামেটিকালী। (অনেকে বলে এটি R এর data.frame এর মত কিন্তু আমি R পারি না তো তা বলতে পারছি না)।



In [1]:

    
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd



In [15]:

    
# দ্বিমাত্রিক অ্যারে (অথবা লিস্টের ভিতর লিস্ট) দিয়ে আমরা ডাটাফ্রেম ইনিসিয়ালাইজ করতে পারি। 
fake_2d_data = np.random.randn(25).reshape(5, 5)
df = pd.DataFrame(fake_2d_data, 
                  index=["alpha", "beta", "gamma", "delta", "epsilon"],
                  columns=["A", "B", "C", "D", "E"])
df.plot(kind="barh", stacked=True)









    Out[15]:





<matplotlib.axes.AxesSubplot at 0xb9c0b6c>

আমরা উপরের ডাটাফ্রেমের অক্ষ ঘুরাতে পারি ট্রান্সপোজের মাধ্যমে।



In [16]:

    
df_t = df.T
df_t.plot(kind='barh', stacked=True)









    Out[16]:





<matplotlib.axes.AxesSubplot at 0xb9f70ac>

যখন আইপাইথন নোটবুকে কাজ করা হবে তখন নিচের কোড দিয়ে সুন্দরভাবে এইচটিএমএল টেব্ল প্রিন্ট করা যায়।



In [18]:

    
from IPython.core.display import HTML
display(HTML(df.to_html()))



In [19]:

    
display(HTML(df_t.to_html()))

JSON, CSV, HTML ইত্যাদি ফরম্যাটও রয়েছে। নিচের কোড থেকে দেখা যাবে।



In [30]:

    
print filter(lambda i: i.startswith("to_"), dir(df))









    



['to_clipboard', 'to_csv', 'to_dense', 'to_dict', 'to_excel', 'to_gbq', 'to_hdf', 'to_html', 'to_json', 'to_latex', 'to_msgpack', 'to_panel', 'to_period', 'to_pickle', 'to_records', 'to_sparse', 'to_sql', 'to_stata', 'to_string', 'to_timestamp', 'to_wide']

আমরা আমাদের ডাটা সম্বন্ধিত পরিসংখ্যান পেতে পারি ডিস্ক্রাইব ফাংশনের মাধ্যমে।



In [32]:

    
df.describe()

একটু নন-র‍্যান্ডম ডাটা নিয়ে কাজ করা যাক যাতে আমাদের কাজগুলো ভেরিফাইড হয়।



In [33]:

    
df = pd.DataFrame(np.arange(16).reshape(4, 4),
                  index=list("ABCD"),
                  columns=list("WXYZ"))

display(HTML(df.to_html()))

এবার পালা কিছু অপারেশানের। মনে রাখবেন রো হল ১, আর কলাম হল ০।



In [54]:

    
total_by_columns = df.sum(axis=0)
total_by_rows = df.sum(axis=1)

cumsum_by_columns = df.cumsum(axis=0)
cumsum_by_rows = df.cumsum(axis=1)

percentage_change_by_columns = df.pct_change(axis=0)
percentage_change_by_row = df.pct_change(axis=1)

# See also: mean, median, mad, var, skew, curt etc. Use ipython's ? and ?? for help.

ডাটা কালেকশনের সময়ে প্রায়েই আপনি মিসিং ডাটা পাবেন। যা কিনা আপনার কাঠামোতে গ্যাপ হিসাবে থাকবে। এগুলো হ্যান্ডল করার টুল দিয়েছে আপনাকে পান্ডাস। যার বেশিরভাগই "na" (অর্থাৎ not available) দিয়ে শেষ হয়। উদাহরণস্বরূপ দেখি-



In [83]:

    
print filter(lambda i: i.endswith("na") or "null" in i, dir(df))









    



['dropna', 'fillna', 'isnull', 'notnull']



In [70]:

    
pd.DataFrame([[1, None, 2, 4, None], [2, 3, 3, 5]]).dropna()



In [72]:

    
pd.DataFrame([[1, None, 2, 4, None], [2, 3, 3, 5]]).fillna("শূন্য")

আপনি যেই অক্ষই চিন্তা করেননা কেন, আপনি এক ধাপ ধরলে একটি অ্যারে পাবেন। যদি অক্ষ হয় ০ তাহলে কলাম, অন্যথায় রো। এখন, আপনি sum, cumsum, mean, median, var ইত্যাদি পাচ্ছেন সংশ্লিষ্ট অপারেশানের জন্য। কিন্তু আপনি যদি নিজের কিছু চান তাহলে? তাহলে আপনার এমন ফাংশন লিখতে হবে যার প্রথম প্যারামিটার অ্যারে, এবং আপনি আপনার ডাটাফ্রামের সাথে তাকে আপ্লাই করবেন। যেমন নিচের কোডটিকেই ধরুন-



In [73]:

    
df = pd.DataFrame(np.arange(10).reshape(5, 2))
df



In [82]:

    
def multiply_with(df, n):
    return df * n

df.apply(multiply_with, n=10)



In [85]:

    
df = pd.DataFrame(np.random.randn(3, 5))
df

এইবার ইন্ডেক্সিং। বিশেষ এক ডাটাফ্রেম তৈরি করি যেন ইন্ডেক্সিং বুঝতে সুবিধা হয়।



In [105]:

    
df = pd.DataFrame([["00", "01", "02", "03"],
                   ["10", "11", "12", "13"],
                   ["20", "21", "22", "23"],
                   ["40", "41", "42", "43"],],
                  index=["r0", "r1", "r2", "r3"],
                  columns=["c0", "c1", "c2", "c3"])
df

ডাটাফ্রেম আর নামপাই অ্যারে একই রকম ইন্ডেক্সিং ব্যবহার করে এক বিশেষ ফাংশন ix এর মাধ্যমে।



In [108]:

    
df.ix[2, :] # রো ২ এ স্থির।









    Out[108]:





c0    20
c1    21
c2    22
c3    23
Name: r2, dtype: object



In [109]:

    
df.ix[:, 3] # কলাম ৩ এ স্থির।









    Out[109]:





r0    03
r1    13
r2    23
r3    43
Name: c3, dtype: object



In [111]:

    
df.ix[1:2, 1:3] # ১ থেকে ২ এর আগ পর্যন্ত রো, ১ থেকে ৩ এর আগ পর্যন্ত কলাম।

কিন্তু ix কেন? সরাসরি [] কেন ইউজ করলাম না? কারণ, [] দিয়ে কলাম বের করব। আর প্রতিটি কলাম হল ডাটাফ্রেমের অ্যাট্রিবিউট। আর তা আপনাকে দিবে একটি সিরিজ যার অ্যাট্রিবিউট হবে রো।



In [119]:

    
df["c1"] # df.c1 দিলেও চলত। জাভাস্ক্রিপ্টের মত।









    Out[119]:





r0    01
r1    11
r2    21
r3    41
Name: c1, dtype: object



In [120]:

    
type(df.c1)









    Out[120]:





pandas.core.series.Series



In [121]:

    
df.c1.r1









    Out[121]:





'11'

এতক্ষণ দেখলাম যে ২-ডি অ্যারে দিয়েই ডাটাফ্রেম তৈরি করেছি। কিন্তু আসলে আরেকভাবে ডাটাফ্রেম তৈরি করা যায়। ডিকশনারি দিয়ে। এটি zip নিয়ম ফলো করে নামপাইএর মত।



In [160]:

    
data = {
    "names": ["Uruguay", "Brazil", "Argentina", "Germany", "Italy", "Spain", "England"],
    "participated": [12, 20, 16, 18, 18, 14, 14,],
    "continent": ["SA", "SA", "SA", "E", "E", "E", "E"],
    "wins": [1, 5, 2, 4, 4, 1, 1],
    "runnerup": [2, 7, 5, 8, 6, 1, 1]
}

df = pd.DataFrame(data, 
        index=["Uruguay", "Brazil", "Argentina", "Germany", "Italy", "Spain", "England"],)
df









    Out[160]:






  
    
      
      continent
      names
      participated
      runnerup
      wins
    
  
  
    
      Uruguay
       SA
         Uruguay
       12
       2
       1
    
    
      Brazil
       SA
          Brazil
       20
       7
       5
    
    
      Argentina
       SA
       Argentina
       16
       5
       2
    
    
      Germany
        E
         Germany
       18
       8
       4
    
    
      Italy
        E
           Italy
       18
       6
       4
    
    
      Spain
        E
           Spain
       14
       1
       1
    
    
      England
        E
         England
       14
       1
       1



In [161]:

    
df.plot(kind="barh", grid=True, stacked=True, rot=30)









    Out[161]:





<matplotlib.axes.AxesSubplot at 0xdfc81cc>



In [159]:

    
df.continent.value_counts().plot(kind="pie", label="Continents").axis("equal")









    Out[159]:





(-1.0000000210975502,
 1.0000000424121425,
 -1.0253279992249265,
 1.0083560303418613)

অনেক কিছুই দেখলাম, এখন চলুন কিছু অ্যাডভান্সড কয়েরি করি।

ধরুন, আপনি চাচ্ছেন যে সমান সংখ্যকবার চ্যাম্পিয়ন হওয়া দেশগুলি একত্রিত হোক। এর জন্য আপনাকে বুঝতে হবে পিভটইং ও স্টয়াকিং। পিভট হল কোন একটি অ্যাট্রিবিউটকে ইউনিক রেখে সেই ভ্যালুর সাথেকার অন্যান্য অ্যাট্রিবিউটকে সাজান। অনেকটা সেট এর ক্রস প্রোডাক্টের মত, একটু রিয়ারেঞ্জ আরকি। মনে করুন আপনি ইনডেক্সকে ধরে পুরা টাব্লকে ঘুরালেন। stack এর মাধ্যমে টেব্লে আঁকারে সাজান হয় আর unstack এর মাধ্যমে লিস্ট আঁকারে। মনে রাখবেন, কলাম ইউনিক থাকবে, আর ইনডেক্স অনুযায়ী একত্রিত হবে। অর্থাৎ, যদি কলাম হয় names আর wins হয় ইনডেক্স, তাহলে, এমন হবে, "প্রতিটি কলাম ভ্যালু বনাম ইনডেক্সের প্রতিটি ভ্যালু, থাকলে সেই ভ্যালু, না থাকলে NaN.



In [213]:

    
pivoted = df.pivot(index="wins", columns="names")



In [210]:

    
pivoted.unstack()
# বিশাল এক ক্রস প্রোডাক্ট। NaN ভ্যালু হল খালি ডাটার জন্যে।









    Out[210]:





              names      wins
participated  Argentina  1      NaN
                         2       16
                         4      NaN
                         5      NaN
              Brazil     1      NaN
                         2      NaN
                         4      NaN
                         5       20
              England    1       14
                         2      NaN
                         4      NaN
                         5      NaN
              Germany    1      NaN
                         2      NaN
                         4       18
                         5      NaN
              Italy      1      NaN
                         2      NaN
                         4       18
                         5      NaN
              Spain      1       14
                         2      NaN
                         4      NaN
                         5      NaN
              Uruguay    1       12
                         2      NaN
                         4      NaN
                         5      NaN
runnerup      Argentina  1      NaN
                         2        5
                         4      NaN
                         5      NaN
              Brazil     1      NaN
                         2      NaN
                         4      NaN
                         5        7
              England    1        1
                         2      NaN
                         4      NaN
                         5      NaN
              Germany    1      NaN
                         2      NaN
                         4        8
                         5      NaN
              Italy      1      NaN
                         2      NaN
                         4        6
                         5      NaN
              Spain      1        1
                         2      NaN
                         4      NaN
                         5      NaN
              Uruguay    1        2
                         2      NaN
                         4      NaN
                         5      NaN
Length: 56, dtype: float64



In [214]:

    
pivoted.stack()
# (wins, names) কে ধরে ডাটার চেহারা, unstack হয়েছে কলয়াপ্সেড। stack সমস্ত N/A কে চুপসে দিয়েছে।









    Out[214]:






  
    
      
      
      continent
      participated
      runnerup
    
    
      wins
      names
      
      
      
    
  
  
    
      1
      England
        E
       14
       1
    
    
      Spain
        E
       14
       1
    
    
      Uruguay
       SA
       12
       2
    
    
      2
      Argentina
       SA
       16
       5
    
    
      4
      Germany
        E
       18
       8
    
    
      Italy
        E
       18
       6
    
    
      5
      Brazil
       SA
       20
       7

ডাটাফ্রেমের শেষ এখানেই না, আরও আলোচনা হবে পরবর্তী পোস্টগুলতে। শেষ করার আগে দেখে নেই কি কি ডিসকাস হল এখানে

ডাটাফ্রেম কি।
ডাটাফ্রেম বিভিন্নভাবে সৃষ্ট হতে পারে। দ্বিমাত্রিক অ্যারে অথবা ডিকশনারির মাধ্যমে।
ডাটাফ্রেমের উপর আপনি বিভিন্ন ফাংশন কল এবং অপারেশান করতে পারেন।
ix ফাংশনের মাধ্যমে ইন্ডেক্সিং করা যায় ঠিক নামপাই অ্যারের মতই। কলাম ও ইনডেক্স দিয়ে আপনি [] এর কাজ করতে পারেন।
প্লটিং করা যায় ডাটাফ্রেমের মাধ্যমে। আর axis দিয়ে আপনি ড়ো/কলামকে মুখ্য ধরে নিতে পারেন।
সব শেষে আমরা কিছুটা দেখেছি পিভট টেব্ল। এর উপর আরও কাজ হবে। আমি কোন ভাল ডাটা (যা আমার অফিস এর না। আলস্য!!!) পাই নাই, তা পেলে আরও ভালভাবে বলা যেত।

আগামীতে আমি ডাটা কালেকশন নিয়ে কথা বলবত কিছু, আরও কিছু কথা বলব পিভট নিয়ে হয়ত। আর কথা বলব গ্রউপিং নিয়ে। তো দেখা হবে আগামীকাল।

	A	B	C	D	E
alpha	0.960272	-0.826986	-0.466003	-2.164979	-0.515156
beta	-0.552988	-0.377938	-0.221681	-0.198346	0.023387
gamma	1.961069	1.710462	-0.438632	1.606601	-1.558174
delta	-0.674267	0.091664	0.262994	-1.355863	-1.075137
epsilon	-1.406780	0.781694	-0.257940	-0.012960	0.142525

	alpha	beta	gamma	delta	epsilon
A	0.960272	-0.552988	1.961069	-0.674267	-1.406780
B	-0.826986	-0.377938	1.710462	0.091664	0.781694
C	-0.466003	-0.221681	-0.438632	0.262994	-0.257940
D	-2.164979	-0.198346	1.606601	-1.355863	-0.012960
E	-0.515156	0.023387	-1.558174	-1.075137	0.142525

	A	B	C	D	E
count	5.000000	5.000000	5.000000	5.000000	5.000000
mean	0.057461	0.275779	-0.224253	-0.425109	-0.596511
std	1.368472	0.998950	0.292811	1.435495	0.723005
min	-1.406780	-0.826986	-0.466003	-2.164979	-1.558174
25%	-0.674267	-0.377938	-0.438632	-1.355863	-1.075137
50%	-0.552988	0.091664	-0.257940	-0.198346	-0.515156
75%	0.960272	0.781694	-0.221681	-0.012960	0.023387
max	1.961069	1.710462	0.262994	1.606601	0.142525

	0	1	2	3	4
0	0.080426	2.012099	0.919150	-0.379672	-1.204189
1	0.231752	0.451970	-1.732385	0.702375	-0.860986
2	-0.551936	0.911473	-1.215514	-0.694774	1.312840

	continent	names	participated	runnerup	wins
Uruguay	SA	Uruguay	12	2	1
Brazil	SA	Brazil	20	7	5
Argentina	SA	Argentina	16	5	2
Germany	E	Germany	18	8	4
Italy	E	Italy	18	6	4
Spain	E	Spain	14	1	1
England	E	England	14	1	1

		continent	participated	runnerup
wins	names
1	England	E	14	1
	Spain	E	14	1
	Uruguay	SA	12	2
2	Argentina	SA	16	5
4	Germany	E	18	8
4	Italy	E	18	6
5	Brazil	SA	20	7